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摘要 : [目的 /意义 ] 数 据 获 取 是 网 络 与 情 研究 的 第 一 个 阶段 ,在 大 量 数据 面前 ,构建 网 络 与 情 推 文 热度 测 
度 模型 能 够 快速 第 选 出 能 为 网 络 和 与 情 研究 所 用 的 数据 。[ 方 法 /过 程 ] 借 鉴 信息 论 中 平均 自信 息 量 的 定义 ,使 用 
层次 分 析 法 与 Haker News 排名 算法 构建 网 络 和 与 情 热 度 测度 模型 。[ 结果 /结论 ] 通 过 在 微 博 抓 取 数 据 , 计 算得 
出 针对 该 数据 集 的 热度 阅 值 ,验证 该 热度 测度 模型 的 准确 度 。 事 实证 明 , 网 络 与 情 推 文 热度 测度 模型 能 够 很 好 
地 完成 推 文 热度 的 计算 ,并 且 能 够 达到 较 高 的 计算 准确 率 。 
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随 着 互联 网 技术 的 发 展 ,网 络 推 文 数量 旦 指数 级 
增 医 ,名 种 自 媒体 平台 每 日 都 会 产生 海量 的 推 文 信息 。 
在 网 络 与 情 研究 的 过 程 中 ,如 果 将 互联 网 中 所 有 的 与 
情 推 文 数据 一 次 性 抓 取 ,将 会 带 来 数据 的 灾难 。 如 何 
在 数据 获取 阶段 ,有 选择 性 有 目的 性 地 抓 取 可 能 造成 
熏 情 事件 的 高 热度 数据 ,屏蔽 低热 度数 据 ,是 网 络 熏 情 
信息 获取 阶段 的 一 个 难题 。 目 前 网 络 熏 情 热度 的 研究 
可 贸 为 单个 时 间 点 的 热度 研究 与 时 间 段 内 的 热度 趋势 
研究 两 个 方面 。 在 单个 时 间 点 的 热度 研究 中 ,以 网 络 
姓 精 推 文中 转发 数 . 评 论 数 .点 赞 数 .粉丝 数 等 一 系列 
定量 数据 为 指标 的 网 络 熏 情 推广 评价 体系 构建 为 主 ， 
例如 梁 昌 明 等 将 推 文 附 加 属性 分 为 博 主 特征 热度 影响 
力 .内容 特 征 热度 影响 力 ,传播 特征 热度 影响 力 和 受众 
特征 热度 影响 力 , 进 而 构建 了 微 博 热度 评价 指标 体 
系 " 。 杜 茵 等 利用 因果 模型 从 文章 数量 、 点 击 量 、 评 论 
量 .来源 数量 几 方面 来 描述 主题 热度 ,并 且 把 时 间作 为 
关键 变量 考虑 在 内 "”。 在 时 间 段 的 网 络 与 情 趋势 研究 
当中 , 徐 施放 利用 马尔 科 夫 链 ,对 不 同时 间 点 下 征 博 定 
量 数据 的 关系 进行 分 析 ,绘制 了 与 情 热度 曲线 图 ,并 对 
与 情 的 趋势 进行 了 预测 。 黄 微 等 通过 将 微 博 转发 评 
论 数 按时 间 的 走势 分 析 , 对 微 博 与 情 的 老化 度 进行 了 


计算 “”。 总 体 来 说 目前 网 络 与 情 热 度 研究 多 是 针对 于 
转发 数 \ 评 论 数 、 点 赞 数 、 粉 丝 数 等 一 系列 定量 数据 的 
研究 ,而 对 网 络 与 情 推 文 内 容 本 身 的 研究 不 多 ,缺乏 网 
络 与 情 推 文 内 容 与 作者 影响 力 对 推 文 热度 影响 的 讨 
论 。 

本 文 从 推 文 内 容 研 究 出 发 ,结合 推 文 定 量 数据 与 
作者 定量 数据 的 热度 计算 ,综合 考虑 了 时 间 对 推 文 热 
度 的 影响 因素 ,引用 了 信息 论 中 平均 自信 息 量 的 概念 
与 热度 计算 中 的 Haker News 排名 算法 ,建立 了 网 络 与 
情 推 文 热度 测度 模型 ,根据 热度 高 低 进行 筛选 ,实现 了 
网 络 和 与 情 抓 取 过 程 的 初步 过 滤 。 该 模型 的 提出 弥补 了 
当前 网 络 熏 情 热度 测度 模型 研究 中 对 推 文 内 容 考 虑 欠 
缺 的 不 足 , 同 时 对 于 推 文 的 热度 计算 不 仅 考虑 点 赞 、 转 
发 与 评论 数量 等 推 文 附 加 信息 的 多 少 , 还 增加 了 作者 
网 龄 与 推 文 存续 时 长 等 作为 时 间 维 度 , 考 虑 单位 时 间 
内 的 点 赞 、 转 发 与 评论 即 附加 信息 的 速率 这 一 因素 对 
推 文 热度 的 影响 。 


2 推 文 热度 测度 模型 构建 


2.1 推 文 热度 及 自信 息 量 的 概念 
2.1.1 推 文 热度 概念 ” 推 文 热度 表示 在 微 博 微 信 等 
自 媒 体 平 台中 ,作者 发 表 的 文章 、 图 片 . 视 频 受 到 关 
注 .讨论 .传播 的 程度 。 在 网 络 与 情 信息 获取 的 过 程 
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中 ,通过 热度 计算 筛选 出 在 单位 时 间 内 更 受到 关注 、 
传播 范围 更 广泛 、 讨 论 更 频繁 的 推 文 ,这 些 推 文 ,很 
有 可 能 作为 潜伏 中 的 网 络 与 情 , 更 容易 引发 用 动 ; 同 
时 过 滤 掉 受 关注 度 低 、 传 播 范 围 窗 .不 经 常 被 讨论 的 
推 文 ,防止 在 网 络 与 情 研 究 中 出 现 数据 灾难 。 本 文 
将 推 文 热度 量化 为 0 至 1 之 间 的 一 个 数 ,以 对 其 进行 
描述 。 
2.1.2 自信 息 量 的 概念 ”根据 香农 信息 论 的 相关 概 
念 ,事件 集合 X 中 事件 x=a 的 自信 息 量 定义 为 : 
Tr(ai) = -logPr(a;) 公式 (1) 

其 中 0< Pr(a,)<1 代表 事件 x=a 发 生 的 概率 ， 
且 Z ;Pir(a) =1。 

自信 息 量 表示 事件 发 生前 ,事件 的 不 确定 性 ,同时 
表示 事件 发 生 后 ,事件 所 包含 的 信息 量 。 事 件 自信 息 


> | 


高 ,事件 的 不 确定 性 越 高 ,反之 ,事件 的 确定 性 就 


Rone 


本文 考 虑 到 网 络 和 与 情 推 文 信息 包 合 推 文 文字 信 
筷 视 频 信 息 与 图 像 信息 ,难以 在 不 涉及 语义 识别 的 前 
提 扩 提取 多 媒体 信息 的 语义 ,因此 采用 推 文 文字 信息 
和 视频 标题 与 图 像 标题 作为 研究 对 象 。 统 计 网 络 
星 情 推广 的 关键 词 词 频 ,将 关键 词 集合 理解 为 事件 集 
低 玉 ,将 某 个 关键 词 理 解 为 事件 x = a, 某 个 关键 词 出 现 
的 议 率 理解 为 Pi(a ) ,从 而 可 以 计算 出 特定 词 的 自信 


息 党 ， 


< 本 文采 用 计算 平均 自信 息 量 的 方式 计算 单个 推广 


一 oo . 
eben Avgli = 3, -logPi(a.) 公式 (2) 


“其 中 为 推 文 的 编号 ,n 为 该 第 上 条 推 文中 所 合 
的 有 用 词 的 个 数 ,a, 为 第 k 条 推 文中 出 现 的 第 i 个 有 
用 词 ,P,( 4a) 为 该 有 用 词 在 所 有 推 文中 出 现 的 频率 。 
2.2 ”层次 分 析 模型 及 判断 矩阵 的 构建 

2.2.1 层次 分 析 模 型 构建 ”层次 分 析 模型 建立 的 目 
的 在 于 ,用 网 络 与 情 推 文 的 各 项 定量 数据 来 描述 网 络 
时 情 推 文 的 热度 。 利 用 层次 分 析 法 ,构造 判断 矩阵 ,能 
够 尽 可 能 减少 不 同 指标 之 间 相互 比较 的 困难 ,提高 准 
确 度 , 从 而 有 效 计算 出 各 指标 间 的 权重 关系 。 本 文 建 
立 了 如 图 1 所 示 的 层次 分 析 模 型 。 模 型 的 目的 是 计算 
网 络 与 情 推 文 热度 , 即 模型 的 目标 层 。 根 据 马尔 科 
夫 . 格拉 德 威 尔 提出 的 流行 三 要 素 理论 ,物体 想 要 流 
行 必须 具备 流行 的 基本 要 素 , 即 关键 人 物 法 则 .环境 威 
力 法 则 和 内 容 附着 力 法 则 ,在 借鉴 文献 -对 网 络 与 
情 热度 的 影响 因素 的 基础 上 ,本 文 认为 ,网 络 与 情 推 广 
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热度 受到 作者 影响 力 内容 感 染 力 和 网 络 传播 力 三 个 
中 间 层 指标 共同 影响 ,。 其 中 作者 影响 力 包含 作者 粉 
丝 增 长 率 、 作 者 发 文 增长 率 、 作 者 关注 增长 率 三 个 因素 
层 指标 ;内 容 感染 力 包含 内 容 丰 寅 度 ,平均 自信 息 量 两 
个 因素 层 指 标 ; 网 络 传播 力 包含 推 文 被 转发 加 权 速 率 、 
推 文 被 评论 加 权 速 率 与 推 文 被 点 赞 加 权 速 率 三 个 因素 
层 指标 。 


奥 情 推 文 热度 
| 作者 影响 力 | 内 容 感 染 力 | 网 络 传播 力 | 
准 

作 | | 作 | | 作 | | 要 | | 右 | 广 
者 | | 者 | | 者 | | 内 亚 | | 蓄 | | 装 | | 装 
寿 | | 爱 | 区 | | 容 共 | | 评 | | 点 
丝 | | 文 | | 福 丰 且 发 | | 论 | | 次 
墙 增 增 局 由 加 加 加 
芝 | | 熏 | | 朗 晤 | | 权 | | 权 | | 权 
这 | | 率 | | 这 速 | | 速 | | 过 
率 | | 率 | | 说 


1 网 络 与 情 推 文 热度 层次 分 析 模 型 


(1) 作 者 影响 力 指 作者 在 自 媒体 平台 中 的 影响 范 
围 与 活跃 程度 。 作 者 发 表 的 推 文 ,在 该 作者 人 际 范围 
内 传播 ,人 际 范围 越 广 、 越 活路 的 作者 发 表 的 推 文 , 传 
播 速 度 越 快 ,造成 推 文 热度 越 高 。 包 括 三 个 底层 指标 : 
QD 作者 的 粉丝 增长 率 ,反映 出 作者 的 影响 范围 的 辐射 
程度 ,粉丝 增长 率 越 快 ,影响 范围 覆盖 速率 越 快 ,未 来 
可 能 关注 此 推 文 的 人 数 就 会 越 多 ,进而 造成 推 文 的 热 
度 增加 。@) 作 者 发 文 增 长 率 ,可 以 作为 作者 在 自 媒 体 
平台 活跃 程度 的 衡量 标准 ,一 定 程度 上 反映 出 作者 的 
影响 力 程 度 , 发 文 增长 率 越 高 ,证 明 作者 在 该 平台 越 活 
越 ,会 正 向 影响 作者 所 发 推 文 的 热度 。@ 作 者 的 关注 
增长 率 , 也 是 作者 活跃 程度 的 衡量 标准 ,一 定 程度 上 反 
映 出 作者 的 影响 力 , 也 会 正 向 影响 作者 所 发 推 文 的 热 
度 值 。 作 者 粉丝 增长 率 、 发 文 增长 率 与 关注 增长 率 均 
来 自 网 络 怜 虫 抓 取 的 粉丝 数 .发文 数 与 关注 数 以 及 作 
者 创建 自 媒体 账户 至 作者 发 表 此 推 文 的 时 间 跨 度 的 计 
算 结 果 ,具体 计算 过 程 将 在 后 续 内 容 中 体现 。 

《2) 内 容 感染 力 指 的 是 推 文 作 者 所 发 表 推 文 的 质 
量 与 吸引 力 。 质 量 越 高 的 推 文 被 他 人 关注 的 程度 就 会 
越 高 ,例如 含有 图 片 ,视频 的 推 文 就 会 比 纯 文字 的 推 文 
更 吸引 人 。 内 容 感染 力 具有 两 个 底层 指标 :中 内 容 丰 
富 度 ,该 指标 根据 网 络 怜 虫 抓 取 的 推 文 内 容 部 分 计算 ，， 
统计 推 文 的 词 数 与 是 否 含有 视频 情况 ,得 到 内 容 丰 富 
度 这 一 定量 指标 ,具体 计算 过 程 见 后 续 章 节 ;@@ 平 均 自 
信息 量 , 代 表 的 是 该 推 文 或 者 类 似 推 文 在 自 媒 体 平台 
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中 出 现 的 频率 ,平均 自信 息 量 越 高 ,说 明 该 推 文 讨论 内 
雁 出 现 频率 越 低 , 反 之 该 推广 讨论 内 容 出 现 频率 越 高 。 
如 果 一 个 类 型 的 推 文 经 常 出 现在 自 媒体 平台 当中 ,我 
a et ee ss 
推 文 被 关注 的 程度 会 相对 较 高 ,具体 计算 过 程 详 见 后 
续 内 容 。 

(3) 网 络 传播 力 指 的 是 用 户 发 表 的 推 文 的 传播 束 
度 与 互动 能 力 。 用 户 的 转发 行为 最 能 够 反映 出 用 户 对 
于 该 推 文 的 参与 度 与 传播 水 平 ,文献 [5] 认 为 ,评论 、 
点 赞 与 转发 行为 均 能 体现 用 户 互 动 参与 程度 ,用 户 互 
动 参与 度 越 高 ,继而 转发 扩散 该 推 文 的 可 能 性 就 越 大 ， 
从 而 影响 到 该 推 文 的 总 体 热度 。 本 文 设计 将 网 络 传播 
力 分 为 推 文 被 转发 加 权 速 率 、 推 文 被 评论 加 权 速 率 与 
扒 交 被 点 赞 加 权 速 率 三 个 底层 指标 , 三 个 底层 指标 来 
源 二 网 络 疏 虫 抓 取 的 转发 数 . 评 论 数 .点 先 数 与 推广 发 
表意 被 抓 取 的 时 间 跨 度 的 加 权 计 算 结 果 。 关 于 加 权 ， 
设计 了 一 个 理想 值 ,作为 排除 推 文 作者 的 粉丝 参 
与 笑 文 传播 的 权重 ,以 弱化 网 络 传播 力 与 作者 粉丝 数 
的 相关 性 。 本 理想 什 由 经 验 得 来 , 数 信 为 0. 75 ,关于 
9 进一步 界定 .改进 与 完善 ,作者 将 另外 行文 


2GD2 判断 矩阵 构建 ”网 络 与 情 推 文 热度 层次 分 析 
罕 章 建立 后 ,需要 比较 各 指标 的 相对 重要 性 ,从 而 建立 
层 将 模型 的 判断 矩阵 。 记 网 络 与 情 推 文 热度 为 A、 作 
者 用 响 力 为 .内 容 感染 力 为 B,、 网 络 传播 力 为 B, , 作 
增长 率 为 C 作者 发 文 增长 率 为 C, 作者 关注 
率 为 C, .内 容 丰 富 度 为 C, .推广 平均 自信 息 量 》 
mag 、 推 文 被 评论 加 权 速 率 
为 C, . 推 文 被 点 赞 加 权 速 率 为 C,。 
通过 文献 调研 与 专家 调查 法 ,作者 影响 力 B, 比 内 
容 感染 力 B, 稍微 重要 ,网 络 传播 力 B, 比 作者 影响 力 
有 稍微 重要 ,网络 传播 力 B, 比 内 容 感染 力 B, 较 强 重 
要 。 作 者 粉丝 增长 率 C, 比 作者 发 文 增长 率 C, 稍微 重 
要 ,作者 粉丝 增长 率 C, 比 作者 关注 增长 率 C, 强烈 重 
we 

。 平 均 自信 息 量 C; 比 内 容 长 度 C, 强烈 重要 。 推 文 
0 , 稍微 重 
要 , 推 文 被 转发 加 权 速 率 C, 比 推 文 被 点 装 加 权 速 率 Cs 
弱 于 较 强 重要 , 推 文 被 评论 加 权 速 率 C, 比 推 文 被 点 先 
加 权 速 率 C, 强 于 同等 重要 。 

根据 表 1 及 上 述 分 析 构建 判断 矩阵 见 图 2。 

构建 判断 矩阵 后 ,需要 检验 矩阵 满意 一 致 性 ,一 致 
性 检验 标准 如 公式 (3 ) 与 公式 (4) 所 示 : 


表 1 判断 矩阵 标 度 及 含义 


因素 i 比 因素 j 量化 值 
同等 重要 1 
稍微 重要 3 
较 强 重要 5 
强烈 重要 7 
极端 重要 9 
1 
判断 矩阵 性 质 a 
于 
两 相 邻 判断 的 中 间 值 2,4,6,8 
A Bi B, B; Bi Ci C2 C3 
Bi 1 3 G 1 3 7 
B;, | 1/3 1 15 C, 1/3 1 5 
Bs 3 5 1 Gs 1/7 1/5 l 
B, C1 Cs Bs Ce C7 Ca 
Cs 1 了 Ce 1 3 4 
Cs 7 1 C7 1/3 1 多 
Ca 1/4 1/2 1 


2 层次 模型 判断 矩阵 

7 。 
CR = 吕 <0.1 公式 (3 ) 
CI= Mme 一 公式 (4) 

7 一 1 
其 中 入 ,是 矩阵 的 最 大 特征 根 , 为 矩阵 的 阶 数 ， 
RI 如 表 2 所 示 : 
表 2 一 致 性 标准 RI 取 值 规则 
矩阵 阶 数 0 1 2 3 
RI 0 0 0.58 0.90 


通过 计算 ,CR, =0. 


CR =0.010 2 , 均 满 足 一 


021 4,CR, =0.036,CR, = 
致 性 检验 。 


计算 可 得 舆情 推 文 热度 层次 分 析 模型 的 权重 如 下 
所 示 : 
0.258 3 0.649 1 
0.125 0 
Wi= 0.1047 W, = 0.2790 ws =| | 
: [0.875 0 
0.6370 0.0719 
0.625 0 
Ws, = 0.238 5 
0.136 5 


2.3 ” 推 文 热度 计算 模型 及 阅 值 计算 模型 构建 


3; 


排名 算法 
名 算法 主要 针对 具有 文 


推 文 热度 计算 模型 
息 热度 计算 模型 有 Reddit 排名 算法 
、Hacker News 排名 算法 等 。 其 中 Reddit 排 


、PageRank 网 页 


持 数 与 反对 数 统计 的 推 文 附加 


言 息 热度 排名 计算 ,PageRank 是 针对 有 网 页 链接 指向 


的 网 页 热度 排名 计算 ,这 


收集 的 微 博 推 文 热度 计 


两 种 算法 并 不 能 支持 本 文 所 
算 模 型 。Haker News 模型 参数 
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涉及 到 了 发 文 的 时 间 与 点 赞 数 ,与 本 文 所 提 及 的 热度 
计算 模型 契合 度 较 高 ,因此 本 文 将 在 Haker News 热度 
计算 模型 的 基础 上 进行 修改 ,从 而 构建 全 新 的 推 文 热 
度 计算 模型 。 
本 文 基于 Haker News 排名 算法 ,构建 推 文 附加 信 
息 热度 计算 模型 ,表达 式 如 公式 (5) 所 示 ; 
ES 公式 (5) 
其 中 了 为 推 文 的 得 票数 ,t 为 以 天 为 单位 的 时 间 。 
因此 通过 公式 计算 , 越 短 时 间 内 得 票数 越 多 的 推 文 排 
名 会 越 靠 前 ,得 票数 一 定 ,随时 间 增 加 , 推 文 的 排名 会 
慢 慢 降低 。 在 公式 (5) 中 ,G 为 重力 因子 ,之 所 以 成 为 
重力 因子 ,是 因为 随 着 G 的 增 大 , 推 文 的 排名 会 被 时 间 
下 拉 得 越 快 ,通常 来 说 设置 G =1.8。 公 式 中 分 子 之 所 
以 减 1, 目 的 是 排除 掉 作 者 对 推 文 的 投票 。 


(0.649 1 xFuns#+ 0.279 0 x Publications# +0.071 9 x Follow#) 


本 文 拟 在 Haker News 的 基础 上 对 热度 排名 算法 
进行 修改 ,利用 其 时 间 影 响 排名 的 思路 重新 构建 热度 
计算 模型 。 根 据 上 文 层次 分 析 模 型 ,作者 影响 力 对 应 
的 指标 有 作者 粉丝 数 (Funs#) 、 作 者 发 文 数 (Publica- 
tions#) ,作者 关注 数 (Follows#) ,在 此 还 要 考虑 作者 创 
建 微 博 至 今 的 时 间 跨 度 (1,,,, ) 。 网 络 传播 力 对 应 的 指 
标 有 推 文 转发 数 (Forward#) 、 推 文 评论 数 (Comment#) 
和 推 文 点 赞 数 (ThumbUp#) ,在 此 我 们 也 考虑 到 推 文 发 
布 至 今 的 时 间 跨 度 (ti)。 内 容 感 染 力 对 应 的 指标 有 
是 否 包含 视频 ( Video ) . 推 文 有 效 字数 ( Word* ) 和 推广 
平均 自信 息 量 (SelfInformation’ ) ,理想 值 (p =0.75)。 

本 文 分 别 应 用 Haker News 排名 算法 结合 上 节 计 
算 的 权重 ,计算 出 作者 影响 力 (15, ) 与 网 络 传播 力 
(rose)。 计 算 公式 如 下 : 


a 公式 (6) 
(34 x60*2) 
放 (0.625 0 x Forward# +0.238 5 x Comment# +0.136 5 x ThumbUp# ) 公式 (7) 
article 0 
24 x60 
> 通过 将 一 部 视频 看 作 100 有 用 词 ,将 推 文平 均 自 % 一 Xi 、 
AN， ES ee g(x) = 公式 (8) 
信息 量 与 字数 按照 公式 (8) 进行 标准 化 ,对 内 容 充 实 War 一 和 mn 
度 开 度 的 计算 公式 如 公式 (9) 所 示 : 
> 0.875 0 x (1 ~g(SelfIlnformation’* ) ) +0.1250 x eg( Word’), Video = False 
| 和 | 公式 (9) 
0.875 0 x (1 ~ g(SelfIlnformation ) ) +0.125 0 xg( Word +100), Video = True 


号 在 计算 作者 影响 力 、 网 络 传播 力 与 内 容 感染 力 的 
基础 上 ,首先 进行 数据 标准 化 处 理 如 公式 (10 ) 所 示 ， 
将 于 种 热度 结果 限制 在 0 到 1 之 间 , 考 虑 到 推 文 影响 
力 比 网 络 传播 力 与 内 容 感染 力 表述 推 文 热度 高 低 的 能 
力 更 强 ,因此 将 推 文 影响 力 加 权 , 计 算 总 体 热度 公式 如 


公式 (11) 所 示 : 
We 公式 (10) 
十 区 
r=0.258 3 xf(r,,, +0.1047 xf(r,,) +0.6370 
Xf raniae) 公式 (11) 


2.3.2 推 文 热度 办 值 计算 模型 ”为 了 更 精确 地 计算 
推 文 热度 的 国 值 ,本 文 建立 了 如 下 数学 模型 . 


] ,Cr 三 YX . 
Ho) =| 公式 (12) 
0, else 
Br 公式 (13) 


其 中 mm 代表 第 万 条 推 文 的 热度 ,x 推 文 热度 的 效 
值 ,N 代表 推 文 总 数 。 优 化 该 数学 模型 ,选取 合适 的 


~ 
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值 ,使 得 Err 最 小 。 

2.3.3 关键 词 库 与 敏感 词 库 ”本文 设 置 两 种 类 型 的 
词 库 :关键 词 库 与 敏感 词 库 ”, 以 达到 算法 查 漏 补缺 的 
作用 。 在 现实 处 理 中 ,热度 达标 的 推 文中 可 能 存在 一 
些 对 网 络 熏 情 研究 相关 度 不 大 的 推 文 ,例如 天 气 预报 、 
心灵 鸡汤 .抽奖 活动 等 。 这 些 推 文 往往 都 携带 辨识 度 
很 高 的 关键 词 ,在 热度 达标 推 文中 ,过 滤 掉 带 有 这 些 关 
键 词 的 推 文 ,能 够 提高 热度 判断 的 准确 度 。 同 理 , 在 热 
度 不 达标 的 推 文 中 ,可 能 存在 一 些 与 与 情 演 进 相关 度 
很 高 的 推 文 ,例如 还 未 引起 色 动 的 地 方 性 事件 含有 敏 
感 信息 的 推 文 等 。 这 些 推 文 在 网 络 与 情 研 究 中 ,不 能 
忽视 ,因此 可 以 对 热度 不 达标 的 推 文采 用 敏感 词 租 选 
的 方式 ,提取 出 含有 特定 敏感 词 的 推 文 ,从 而 提高 热度 
判断 的 准确 度 。 

在 本 文 研 究 中 ,敏感 词 来 源 于 CSDN 用 户 整 理 的 
开放 下 载 的 “2017 敏感 词 库 ” ,包含 了 有 关 色 情 、 暴 力 、 
反动 、 贪 腐 . 民 生 等 类 别 的 敏感 词 ,用 于 从 热度 不 达标 
的 推 文中 筛选 需要 抓 取 的 推 文 。 关 键 词 库 包 括 作者 针 


黄 微 , 刘 烟 ， 许 烨 婧 ,等 . 网 络 和 与 情 推 文 的 热度 测度 


ChinaXiv 合 作 期 刊 


度 模 型 构建 [ 相 . 图 书 情报 工作 ,2019 ,63(20):17 -25. 


对 微 博 推 文 信息 整理 的 有 关 天 气 .抽奖 广告 等 类 别 的 
关键 词 ,用 于 在 热度 达标 的 推 文中 过 滤 掉 与 网 络 和 与 情 
研究 不 相关 的 推 文 。 

2.4 推 文 热度 测度 流程 及 评价 模型 

2.4.1 推 文 热度 测度 流程 ”在 层次 模型 的 基础 上 , 结 
合 热度 计算 模型 ,本文 应 用 图 3 所 示 推 文 热度 测度 流 
程 , 对 网 络 与 情 信息 的 热度 进行 测度 。 热 度 计算 模型 


作者 粉丝 增长 率 


作者 发 文 增 长 率 


作者 关注 增长 率 


丙 容 丰富 度 
平均 自信 息 县 四 


推 文 被 转发 加 权 速 率 


推 文 被 评论 加 权 速 率 


推 文 被 点 费 加 权 速 率 


7.00356v1 


2 推广 热度 测度 评价 模型 ”本文 应 用 准确 率 与 

耕 辐 率 对 推 文 热度 测度 模型 进行 评价 , 设 实际 热度 达 

械 的 推 文集 全 为， 不 达标 的 为 ~T, 计 算 热度 达标 的 

从 福全 全 为 CT, 计 算 热度 不 达标 的 推 文集 合 为 ~CT， 
确 率 为 ACC ,召回 率 为 REC ,计算 公式 为 : 


© ACC= + NT 公式 (14) 
二 REC= LO 公式 (15) 


© 
准确 率 与 召回 率 反 映 了 两 个 不 同方 面 的 指标 ,准确 
率 反 映 了 整体 计算 的 准确 性 ,召回 率 表 示 热 度 计算 达标 
是 否 漏 报 。 


的 集合 占 实际 热度 达标 集合 的 比率 ,衡量 


镶 骨 在 层次 模型 中 ,用 于 对 与 情 推 文 热度 进行 整体 全 
面 的 热度 计算 。 在 完成 推 文 热度 计算 的 基础 上 ,利用 
推 文 热度 阔 值 计算 模型 ,估算 出 热度 阔 值 标准 ,将 在 阔 
值 以 上 的 推 文 视 作 热度 达标 推 文 ,在 阔 值 以 下 的 推 文 
视 作 热度 不 达标 推 文 。 通 过 关键 词 过 滤 与 敏感 词 筛 
选 ,最 终 确定 热度 达标 的 网 络 与 情 推 文 与 热度 不 达标 
的 网 络 和 与 情 推 文 。 


热度 
达标 
推 文 


热度 
未 

达标 

推广 


图 3 网 络 和 与 情 热 度 测度 模型 


3 ”数据 获取 与 数据 清理 


3.1 数据 获取 

本 文 的 数据 来 源 于 新 浪 微 博 , 通 过 八 不 鱼网 络 息 
虫 工具 , 抓 取 500 名 博 主 的 70 833 条 微 博 数据 作为 初 
始 数据 。 数 据 包含 了 作者 微 博 名 、 推 文 获取 时 间 、 推 文 
发 布 时 间 , 推 文 内 容 、 推 文 转发 数 . 推 文 评 论 数 、 推 文 点 
赞 数 、 是 否 包含 视频 \ 作 者 创建 微 博时 间 、 作 者 关注 数 、 
作者 粉丝 数 、 作 者 发 文 数 12 列 信息 ,部 分 数据 如 图 4 
所 示 。 通 过 数据 过 滤 与 数据 清理 ,过 滤 掉 重复 数据 , 清 
理 掉 非 法 字符 总 计 获 得 63 816 条 微 博 数据 。 


如 案 福 096696 2245 36 2012/B/10 10.22 今天 我 的 「 筱 博 等 级 」 又 升 一 级 ， 记 录 一 下 我 在 莪 博 的 成 就 0 向 天 0 0 0 2017/4/251738 2019/4/101129 FALSE 
如 来 福 If396696 2345 -30 2012/B/10 10.22 能 拿 奖品 这 种 事 一 定 尼 和 大 家 说 一 说 的 ， 和 否则 以 后 还 怎么 在 一 起 恰 / 0 0 0 2017/4/251739 2019/4/101129 FALSE 
天 清 钱 官方 激 博 ?2 314 2014/11/13 15.03 发 布 了 头条 文章 。《 网 贷 风 除 备 付 金 存 废 定论 ， 可 以 设 团 风 险 组 苦 ; 0 0 0 2017/4/251757 2019/4/102204 FALSE 
有 浇 较 相 湛 了 1 7 2016/B/24 19.41 中 国 诗 记 欢 赏 第 四 首 ! 0 0 0 2017/4/251931 2019/491433 FALSE 
灵异 老 朱 79 1602% 621 2017/4/20 20.28 世界 之 大 无 奇 不 有 ， 你 相信 诡异 的 存在 吧 ” 背 后 呼 的 冷风 一 吹 ， 你 | 2 3 11 2017/4/25 2008 2019/4/10 1627 FALSE 
高 地 两 米 的 一 楼 125 45 637 2011292347 人 现在 的 小 货 友 真 的 好 过 分 跌 哈 治 哈 L 秒 拍 视频 。# 岳 和 0 0 0 201714252310 2019/4/101708 TRUE 
有 比 就 相 汗 7 0 457 2016/B/24 1941 第 5 首 ， 从 军 行 是 证 乐府 各 题 ， 以 此 为 各， 这 白 、 王 维 、 驯 焕 ， 王 贞 0 0 0 2017/4/26739 2019/4/9 1433 FALSE 
国际 地 板 0 0 0 2011/2/232.04 @@ 太 真 的 世界 0 0 0 2017/4/26744 2019/4/102021 FALSE 
旭 wdnpWsyx 148 2 740 201W1029143 的 东西 就 在 你 知道 的 地 方 ， 我 不 会 再 搞 不 到 东 下 了 银 镜 一 个 | 0 0 1 2017/4/26951 2019/4/101120 FALSE 
文 刀 公 随 0 0 0 2015/12/25 142 货 大 始 - 老 于 -可喜 可 贸 ! ! ! 0 0 0 2017/4/26 1118 2019/4/10 1525 FALSE 
山下 清泉 56 和 哲 648 2010/12/5 14.36 一 篇 转载 博文 《[ 转 载 小 学 里 的 “成 人 式 腐败 -有 多 严重 ?”》°|$ 0 0 0 2017/4/261150 2019/4/101644 FALSE 
山下 清 录 56 49 648 2010/12/5 14.36 计生 干部 调查 失 独 者 12 年 被 骂 猪 狗 不 如 会 遗 报应 @ 辛 宰 头 条” 分 0 0 0 201714/26 1202 2019/4/101644 FALSE 
Iucl 跑 答 咪 255 HH 203 2017/4/24 22.09 全 国 被 曝光 很 多 例 了 ， 每 次 看 都 般 且 惊 心 ， 希 望 引起 大 家 关注 ， 社 : 0 0 0 2017/4/261343 2019/491036 FALSE 
luclg 移 茶 255 4 203 201714/24 22.09 在 土耳其 伊 斯 志 布尔 的 街头 ， 有 一 种 过 天 的 自动 贩卖 机 ， 好 心 人 把 ! 0 0 0 2017/4/261346 -2019/4/9 10.36 FALSE 
纪 问 题 儿 童 易 观 扬 3825 1047 369 2011/7112 6.37 42 0 0 0 2017/4/261356 2019/4/91410 FALSE 
天 添 钱 官方 沼 情 72 34 939 2014/11/13 15.03 发 布 了 头条 文章 《 夫 添 钱 2017 年 劳动 节 放假 公告 》 "天 添 钱 2017S 0 0 0 2017/4/261800 2019/4/102204 FALSE 
高 地 两 米 的 一 楼 125 45 ”637 ”2016/11/29 2347 一 些 关 键 的 税 改 绚 节 和 包括， 放弃 支持 边境 训 节 税 、 对 美国 众 业 的 坎 ! 1074 1691 1774 2017/41/262153 2019410170 FALSE 
高 地 两 米 的 一 到 125 生 637 ”2016/11/29 23.47 海军 要 继续 努力 呀 ? 0 0 0 2017/4/262204 2019/4/101706 FALSE 
离 地 两 米 的 一 楼 125 有 637 ”2016/11/292347 漂亮 呀 0 0 0 2017/4/26 2228 2019/W101706 FALSE 
高 地 两 米 的 一 楼 125 全 637 ”2016/11/292347 怀旧 时 光 ， 周 星 豫 错过 朱 黄 终生 不 归 ， 最 后 的 谢谢 让 人 心 贞 \2 [种 0 0 0 2017/4/262247 2019/4/101706 CTRUE 
离 地 两 米 的 一 楼 125 45 637 2016/11/29 2347 这 算是 永 动机 乌 0 0 0 6 2019/4/10 1705 FALSE 
TIENS 小 亮 208 245 44 2013/3/19 9.34 这 老外 活该 找补 0 0 0 2019/4/9 19.20 FALSE 
有 痢 就 相逢 n 0 457 2016/8/24 19.41 第 6 一 7 首 ， 阅 读 其 实 就 是 一 个 积累 过 程 ， 机 会 都 是 给 有 心 人 准备 的 0 0 0 2019/4/9 14.33 FALSE 
肥皂 泡 也 有 梦想 27 285 748 2010/6/26 0.00 生活 想 杰 给 我 更 多 之 前 ， 一 定 会 考 葵 我 一 备 。 生 而 为 人 ， 不 容易 .， 0 0 1 2019/4/10 2039 FALSE 
离 地 两 米 的 一 楼 L125 5 637 2016/11/29 23.47 【垃圾 克星 来 了 ! 这 种 下 子 能 绾 塑料 】 两 班 牙 和 英国 科研 人 员 发 现 ， 622 ”1120 2403 0 918 2019/4101706 FALSE 


图 4 初始 数据 截图 示例 
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由 于 应 用 新 的 数据 集 数 据 量 过 大 ,不 能 够 完全 运 
用 人 工 进行 标注 , 本文 标注 采用 TensorFlow 中 开源 的 
自然 语言 处 理工 具 与 GitHub 中 成 型 的 开源 卷 积 神经 
网 络 分 类 工具 , 先 对 数据 进行 正 负 向 情感 判断 ,将 负面 
信息 标记 为 1, 将 正面 情感 与 中 立 情感 标记 为 0 ,而 后 
将 负面 信息 中 ,点 赞 、 转 发 .评论 量 过 少 的 推 文 标记 为 
0 ,最 后 人 工 对 标记 为 1 的 少量 数据 再 次 进行 筛选 , 易 
除 涉及 到 天 气 类 型 心灵 鸡汤 类 型 .民生 福利 类 型 、 政 
府 公 告 类 型 .花边 新 闻 类 型 动物 宠物 类 型 .作秀 类 型 、 
抽奖 类 型 等 与 网 络 奥 情 研究 内 容 不 符 的 推 文 , 记 为 不 
抓 取 推 文 。 最 终 获得 不 抓 取 推 文 51 531 条 ,标记 为 0， 
需要 抓 取 的 推广 共计 12 285 条 ,标记 为 1。 
3.2 中文 分 词 
二 本 文采 用 Java 编程 技术 ,从 Maven 中 导入 中 文 分 
局 工 王 具 ansj ,针对 推 文 内 容 ,编程 实现 了 中 文 分 词 。 考 
虑 名 例如 代词、 介词 .语气 词 等 一 系列 与 推广 本 身 语义 
2 


。 在 本 次 实验 中 只 采用 分 词 结果 中 的 一 般 名 词 

居多 音译 人 和 名、 地名、 音译 地 名 、 机 构 团体 名 、 其 他 专 
答 名 词 性 惯用 语 、 名 词性 语素 、 新 词 . 处 所 词 一 般 动 
词 \ 及 | 动词 . 动 名 词 .动词 性 语素 .形容词 . 副 形 词 .名 形 
诈 s 副 词 . 区 别 词 这 20 类 词 。 并 添加 “有 ”没有 ”还 ” 
“后 ;也 "等 未 小 出 的 停 用 词 。 
.全 在 分 词 与 停 用 词 设置 的 基础 上 ,对 已 分 词 数据 进 
待 襄 频 统计 ,计算 单个 词 出 现 的 频率 ,由 于 该 频率 数值 
过 杀 , 在 Java 中 采用 BigDecimal 包 函 数 对 频率 进 和 精 
准 表述 与 计算 。 具 体 分 词 过 过 程 与 自信 息 量 计算 代码 
如 EB: 


// 词 语词 数 的 HashMap 

HashMap < String, Integer > map = new HashMap < String, Integer > 
(2 

// 分 词 结果 数组 


ArrayList < Result > ls = new ArrayList < Result > (); 


for (inti = 0;1 < sheet. getRows();i++)| 
// 分 词 核 心 代码 
String cellinfo = sheet. getCell(3, i). getContents( ) ; 
Result strs = ToAnalysis. parse(cellinfo ) ; 
ls. add ( strs) ; 
for( java. util. Iterator < Term > itr = strs. iterator( ) ; itr. hasNext 
();)| 
Term temp = itr. next( ) ; 
// 停 用 词 过 滤 


if( expectedNature. contains( temp. getNatureStr( ) ) 


&& | stopWords. contains( temp. getNatureStr( ) ) ) | 


String tempString = temp. getName( ) ; 
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if( map. containsKey ( tempString ) ) | 

map. put( tempString, map. get(tempString) + 1); 
total + +; 

| else! 

map. put( tempString, 1); 


total + +; 


for (Entry < String, Integer > entry: list) | 
String key = entry. getKey( ) ; 
Integer value = entry. getValue( ); 
// 利 用 BigDecimal 精准 计算 词 频 
BigDecimal bvalue = new BigDecimal( value ) ; 
BigDecimal btotal = new BigDecimal(total ) ; 
BigDecimal percentage = bvalue. divide ( btotal, 10, RoundingMode. 
HALF_UP) ; 
/计算 自信 息 量 
double selfImformation = - Math. log(percentage. doubleValue( ) )/ 


Math. log(2); 


! 
i 


4 ”实验 与 结果 


4.1 ”实验 过 程 
4.1.1 分 词 与 平均 自信 息 量 计算 ”在 Java 环境 下 利 
用 ansj 中 文 分 词 工 具 , 可 以 实现 如 图 5 所 示 的 中 文 分 
词 结果 。 在 分 词 的 基础 上 ,利用 HashMap 记录 每 个 词 
与 其 出 现 的 次 数 ,并 根据 公式 (1) 计算 该 词 的 自信 息 
量 , 如 图 6 所 示 。 最 后 统计 每 个 词 的 自信 息 量 ,与 每 一 
条 推 文中 的 词 数 ,根据 公式 (2) 计 算 每 篇 推 文 的 平均 


自信 息 量 ,如 图 5 所 示 : 


# 湖 南 熏 情 # 史 上 最 长 湘 绣 《 千 鹤 图 着 》 被 毁 ， 
万 科 物 业 任 烧 一 晚 不 报警 


strs: 湖南 与 情 , 史 ,最 长 汀 绣 , 汐 ， 毁 , 万 科 , 物 业 ， 
任 , 烧 ,不 ,报警 


一 


sumSelfInfor:185.76389688434324 
字数 :14 
i 13.268849777453088 


图 5 中 文 分 词 结果 及 推 文平 均 自信 息 量 


4.1.2 热度 计算 在 计算 推 文平 均 自 信息 量 后 ,根据 
推 文 发 布 时 间 与 推 文 抓 取 时 间 计 算 单条 推 文 发 布 时 
长 ,根据 作者 创建 微 博时 间 与 推 文 抓 取 时 间 ,计算 创建 
微 博 至 今 的 时 长 ,时 间 长 度 均 以 分 钟 为 单位 ,最终 形成 
如 图 7 所 示 的 推 文 基本 数据 示例 。 利 用 公式 (6) - 公 
式 (11) ,可 以 计算 得 出 如 图 8 所 示 的 结 
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作者 
认真 的 赵 先 森 


力 力 


作者 影响 网络 传播 eh 热度 


key: 复 活 ;walue:46;percentage:0.0000320368;selfInfomation:14.929910423278491 
key: 备 用 :value-46:percentage:0.0000320368:selfimfomation:14.929910423278491 
key: 新 气象 walue:46:percentage:0.0000320368:selfInfomation:14.929910423278491 
key: 孤 单 ;walue:46;percentage:0.0000320368;selfInfomation:14.929910423278491 
key: 气 候 :value:46:percentage:0.0000320368:selftnfomation:- 14.929910423278491 
key: 母 女 ;walue:46;percentage:0.0000320368;selfInfomation: 14.929910423278491 
key: 类 型 ;walue:46;percentage:0.0000320368;selfInfomation:14.929910423278491 
key: 考 了 walue:46;percentage:0.0000320368;selfInfomation:14.929910423278491 
key: 谎 言 ;value:46;percentage:0.0000320368;selfInfomation:14.929910423278491 
key: 超 标 :value:46:percentage:0.0000320368:selftnfomation: 14.929910423278491 
key: 黄 河 ;walue:46;percentage:0.0000320368;selfInfomation:14.929910423278491 
key: 过 分 yalue:46;percentage:0.0000320368;selfInfomation:14.929910423278491 
key: 丢 失 ;value:46;percentage:0.0000320368;selfInfomation:14.929910423278491 
key: 开 会 ;value:46;percentage:0.0000320368;selfInfomation:14.929910423278491 
key: 轻 生 ;value:46;percentage:0.0000320368;selfInfomation:14.929910423278491 
key: 透 明 :value-46:percentage:0.0000320368:selfimfomation-14.929910423278491 
key: 安 全 感 value-46:percentage:0.0000320368:selfmfomation:14.929910423278491 
key- 影 像 value-46:percentage:0.0000320368:selftnfomation-14.929910423278491 


词 频 统计 与 平均 自信 息 量 


图 6 


作者 关 作者 粉 作者 发 创建 时 间 内 容 
注 数 丝 数 文 数 差 


254 667905 307 3783541.2 昨天 庭审 结束 的 316 


图 7 推 文 基本 数据 截图 示例 


613 2293 472120 


转发 ”评论 点 赞 ”发布 微 博 平均 自信 是 否 含有 
至 今 时 长 息 量 视频 
12.040494 FALSE 


推 文 信息 和 图 10 低热 度 推 文 信息 。 从 图 9 可 以 看 


0.9939729 0.9352139 0.3671142 0.8909113 
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图 8 热度 计算 结果 截图 示例 


© 
4 97 实验 结果 

上 根据 推广 热度 模型 ,对 推 文中 定量 数据 进行 热度 
讨 胃 ,得 到 63 817 条 数据 的 热度 ,经 过 归 一 化 处 理 的 
把 六 取 值 范围 范围 从 0 到 1 ,目前 计算 热度 最 低 推 文 的 
的 一 为 0.000 02 ,最 高 热度 推 文 的 热度 为 0.935。 本 文 
截 玛 了 部 分 热度 计算 的 结果 予以 展示 ,如 图 9 高 热度 


371 1361 816793 


naX 


到 ,高 热度 推 文 发 布 者 具有 较 高 的 粉丝 数 .关注 数 与 
发 文 数 , 推 文 转发 .评论 ,点 赞 数 较 多 ,平均 自信 息 量 
较 低 ,属于 网 络 热 议 内 容 。 除 了 少量 的 广告 类 型 , 心 
灵 鸡 汤 类 型 的 推 文 ,大 部 分 推 文 均 被 标记 为 需要 抓 
取 的 推 文 。 从 图 10 中 观察 到 ,低热 度 推 文 的 转发 . 评 
论 、 点 赞 数 很 少 ,大 部 分 为 0, 发 布 者 的 粉丝 数 、 关 注 
数 发 文 数 均 不 高 ,平均 自信 息 量 较 高 ,属于 网 络 中 
偏 冷门 内 容 。 


1 否 
276886 TRUE 12.23091 45 0.956575 0.999893 0.37393 0.923166 


【21 岁 奥迪 司机 开车 玩 手机 :185124 107397 167909 1 

文案 人 于 极 2367 42158 849 1801850 听 说 台湾 人 大 客气 了 ?一 | 484241 361922 468813 324593 TRUE 1193783 170956821 0.999949 0.373353 0.923204 1 

文案 人 于 极 2367 42158 849 1801850 文案 不 读书 会 死 吗 ? 会 死 236324 257783 606655 242417 FALSE 10.89207 12 0.956821 0.999953 0.373548 0923227 1 

i 窗 疼 与 情 371 ”18691 ”1361 816791 @ 应 采 儿 今年 过 年 ， 我 给 你 2639 1733 12197 134447 FALSE 1098626 310956575 0.998694 0.382547 0923304 0 
易 状 - 手 罕 芹 各 377 。 50965 896 ”843972 【 求 当 得 宪 ! # 京 津 蔓 迎 来 尹 31 72 1324 79843 TRUE 1271078 56 0982676 0.991073 0.365373 0923393 0 

《 认真 的 赵 先 森 254 667905 307 3783540 发 布 了 头条 文章 : 《一 张 412 308 936 146616 FALSE 1174037 20 0.993973 0.987773 0.357776 0923414 1 
认真 的 赵 先 森 254 ”667905 307 3783542 发 布 了 头条 文章 : 《 写 在 老 。 3667 4716 26666 701727 FALSE 11.28393 9 0993973 0.98706 0.362228 0923426 0 

© 易 状 - 柱 到 芹 和 从 377 。 50965 896 ”343975 # 吃 了 隔夜 冰 西 瓜 小 肠 坏 死 ! 。 10291 221575 832585 363525 FALSE 13.44323 210982676 0.999835 03129 0923481 1 
认真 的 赵 先 森 254 667905 307 3783542 濒 蓉 # 经 与 警方 核 人 及 8406 7774 39329 681142 FALSE 1302732 24 0993973 0.99302 0.326681 09235 1 

定 蜂 与 情 371 ”18691 ”1361 816795 这 时 候 不 打 波 广告 ， 对 不 起 ; 175151 184213 84499 373566 FALSE 10.60033 8 0.956575 0.999819 0378068 0923551 1 

喘 异 老 朱 79 160246 621 1036556 黄 浊 ---- 杀 人 八 百 万 的 传说 ; 926077 1199976 2250813 858519 FALSE 1421726 18099312 0.999887 0.287702 0923573 1 

灵异 老 朱 79 160246 621 1036556 喜 迎 十 九 大 最 为 一 个 违背 科 ; 493235 1074529 1751951 776191 FALSE 13.98257 9 099312 0.999862 0.287937 0923582 1 

密 蜂 与 情 371 ”18691 ”1361 816792 4 基因 编 辑 坚 儿 # 世 界 首 例 免 131751 19841 314835 193689 FALSE 1195001 620956575 0999929 0378258 0923641 1 

认真 的 赵 先 森 254 ”667905 307 3783544 忍无可忍 ! # 唐 山 黄 淑 芬 # 8881 5542 17376 723745 FALSE 11.53946 2 0.993973 0.989533 0.351421 0.92387 1 

认真 的 赵 先 森 254 ”667905 307 3783544 下 午 秘 事 司机 给 我 打 来 电话 | 2433 5223 26150 722358 FALSE 1072447 20 0993973 0.984853 0382209 0924112 1 

灵异 老 朱 79 160246 621 1036559 【 某 涯 最 诡异 的 九 个 帖 ) 据 。 17810 15067 57378 989544 FALSE 1264806 27099312 099246 0338941 0924207 0 

认真 的 赵 先 森 254 ”667905 307 3783540 因 法 院 依据 执行 笔录 载 定 刘 395 533 1402 129092 FALSE 13.27626 530.993973 0.992039 0.339627 0.924231 1 

认真 的 赵 先 森 254 ”667905 307 3783541 [我 买房 ， 我 还 364 540 。 1119 179759 TRUE 1143825 290.993973 0.984256 0.388133 0924352 1 

易 矢 -村 去 芹 得 377 50965 896 ”843975 # 审 判 实务 # 【在 生产 经 营 坝 ”444416 424637 216365 351355 FALSE 13.67793 420982676 0.999934 0321188 0924412 1 

密 终 与 情 371 ”18691 ”1361 816790 # 了 晚安 # 真正 能 自律 的 人 , 5 126236 128547 21755 107873 FALSE 1061917 220956575 0999971 038578 0924456 1 

认真 的 赵 先 森 254 ”667905 307 3783540 今天 执行 局 向 我 下 达 了 国家 87 250 1461 108714 FALSE 1245335 490993973 0.98941 0.358185 0.9245 0 

灵异 老 朱 79 160246 621 1036550 恐怖 片 《 妈 妈 》 1512810 1137532 1918380 440179 FALSE 13.51618 2099312 0.999973 0.296767 0924577 1 

宣 手 与 情 371 ”18691 ”1361 816790 # 百 度 与 情 # 今 日 ， 小 编 在 某 93209 195765 243785 115467 FALSE 1095132 380.956575 0.999973 0.387386 0924625 1 

灵异 老 朱 79 160246 621 1036549 确认 身份 0 15 0 76 FALSE 132098 2099312 0.998642 0.305821 0924677 0 

文案 人 于 极 2367 42158 849 1801849 华为 荣 直 手机 ， 找 《新 喜 刷 .379707 470515 230244 59635 TRUE 1132034 17 0956821 0.999997 0.387725 092474 1 

认真 的 赵 先 森 254 667905 307 3783540 车 损 赔 偿 案 因 黄 上 诉 ， 定 于 5747094 6189580 856 106154 FALSE 1372369 100993973 0999999 0.296564 0924793 1 

灵异 老 朱 79 160246 621 1036557 杀人 京 尸 只 因 肚 子 饿 ? 震惊: 1521227 1928719 1027139 974782 FALSE 13.78145 16099312 0.999892 0.299369 0924798 1 

认真 的 赵 先 森 254 ”667905 307 3783541 呐 淑 芬 要 起 诉 这 些 兽 为 我 发 1106 695 1583 208007 FALSE 12.46681 46 0.993973 0.990266 0.355943 0.92481 1 


图 9 高 热度 推 文 信息 截图 示例 


在 热度 计算 的 基础 上 ,对 公式 (12) 与 公式 (13 ) 求 
极 值 , 得 出 当 阔 值 取 0.4 时 ,函数 取得 最 小 值 为 0.059 ， 
见 图 11。 

当选 取 浆 值 为 0.4 时 ,根据 公式 (14) 与 公式 (15 ) 
计算 得 出 热度 计算 准确 率 为 94% ,召回 率 为 91% 。 这 
说 明 在 低热 度 群 体 中 ,还 有 大 量 的 推 文 存在 抓 取 的 必 


要 性 。 因 此 在 低热 度 集合 中 ,利用 敏感 词 筛选 ,筛选 出 
131 条 推 文 数据 。 在 高 热度 集合 中 利用 关键 词 过 滤 ， 
过 滤 掉 1 128 条 推 文 数据 。 通 过 筛选 与 过 滤 操 作 , 热 
度 计算 的 准确 率 上 升 至 95% ,召回 率 上 升 至 92% 。 

本 文 算法 在 准确 率 方面 略 逊 于 卷 积 神经 网 络 等 机 
器 学 习 算法 ,但 是 在 时 间 复 杂 度 方面 具有 明显 的 优势 。 
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图 二 情报 三 作 
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Immingming 0 0 0 3536767 @ 李 妮 静 0 
史 蛛 地 板 0 0 0 4275022 你 哪 种 类 型 ? @Fa 柯 @ 第 三 0 
罗 喇 地 板 0 0 0 4275020 牛 b// 人 @ 学 徒 王 自 健 下 巴 不 外 0 
不 高 兴 的 日内 0 0 0 ”754354 我 在 这 里 2 宁波 .宁波 诺丁汉 0 
不 高 兴 的 日 齿 0 0 0 754354 我 在 这 里 2 宁波 .武陵 大 厦 0 
Immingming 0 0 0 3536769 苞 野 ， 独 行 0 
不 高 兴 的 白 齿 0 0 0 754351 我 在 这 里 2 宁波 .本 雅明 向 啡 | 0 
兄 辣 地 板 0 0 0 4275018 空气 净化 器 0 
不 高 兴 的 日 齿 0 0 0 754352 什么 牌子 的 卫生 巾 最 好 ? 0 
Immingming 0 0 0 3536769 这 思路 0 
文 刀 公 天 0 0 0 1730943 //@ 现 货 大 嫩 - 老 于 .可喜 可 各 0 
ABEYY 0 0 0 4406222 冷血 的 中 国人 0 
史 味 地 板 0 0 0 4275018 这 词 ， 难 怪 老 关 爱 看 ， 一 套 0 
ABEYY 0 0 0 4406223 王者 富民 ， 宸 者 富士 ， 仅 存 . 0 
天 平 小 生 0 0 0 3118763 半 步 印证 辉煌 0 
文 刀 公 随 0 0 0 1730939 万 箭 齐 发 航母 请 留 步 吧 0 
不 高 兴 的 日 齿 0 0 0 754353 我 在 这 里 2 宁波 ,镇 海 豆 楼 广 0 
天 平 小 生 0 0 0 3118762 好 样 的 ， 冰 花 交警 昼 稚 ! 0 
哆 哑 地 板 0 0 0 4275013 改名 了 改名 了 0 
央 绒 怪 84 117 227 3570949 //@ 末 去 之 间 ://@ 杜 长 军 ://C 0 
唉 后 地 板 0 0 0 4275022 快 三 ~~~ 呼 呼 力 亚 ! ! ~ 0 
天 平 小 生 0 0 0 3118763 棒 棒 叶 0 
不 高 兴 的 白 齿 0 0 0 754351 吝 子 的 假期 2 宁波 . 莫 吉 小 当 0 
史 听 地 板 0 0 0 4275024 亲爱 的 ， 拜 拜 改 ， 可 ~~~ 0 
不 高 兴 的 日 齿 0 0 0 754354 今年 春 夏 上 海 时 装 周 上 的 古 : 0 
兽 勇 0818 66 129 566 3281511 七 休 哥 0 
文 刀 公 随 0 0 0 1730944 春天 的 诗 或 一 些 灵 感 的 碎片 | 0 
Immingming 0 0 0 3536771 新 年 吉星 照 ， 如 意 祥云 绕 ! : 0 


cooocococococococcococcocooccocococcocoococoocococcn 


时 | 视 


0 545735 


16.86851 0.008025 0.178477 0.023799 


FALSE 0 
0 3306426 FALSE 15.60673 20 0 0.227959 0.023867 0 
0 1798878 FALSE 15.65949 50 0 0.228805 0.023956 0 
0 750301 FALSE 15.65633 50 0 0.228913 0.023967 0 
0 732270 FALSE 15.58929 30 0 0.229514 0.02403 0 
1 2482268 FALSE 15.58106 20 153E-04 0.228897 0.024063 0 
0 633946 FALSE 15.5787 30 0 0.229874 0.024068 0 
0 1154812 FALSE 15.5276 20 0 0.230802 0.024165 0 
0 674830 FALSE 15.51555 30 0 0.232132 0.024304 0 
0 2713564 FALSE 15.45347 10 0 0.232586 0.024352 0 
0 1028408 FALSE 15.57692 60 0 0.232648 0.024358 0 
0 3929338 FALSE 15.47129 20 0 0.232841 0.024378 0 
0 1147149 FALSE 15.51498 40 0 0.233066 0.024402 0 
0 4237543 FALSE 15.70067 120 0 0.233607 0.024459 0 
0 1297218 FALSE 15.47282 30 0 0.233666 0.024465 0 
0 528750 FALSE 15.51538 50 0 0.233961 0024496 0 
0 704087 FALSE 15.45284 40 0 0.235269 0.024633 0 
0 629110 FALSE 15.38638 30 0 0.23675 0.024788 0 
0 261445 FALSE 15.32419 20 0 0.238049 0.024924 0 
0 753027 FALSE 18.66094 40055314 0 0.101697 0.024935 0 
0 3517891 FALSE 15.31711 20 0 0.238295 0.02495 0 
0 1110357 FALSE 15.28355 10 0 0.238571 0.024978 0 
0 650509 FALSE 15.33743 40 0 0.239359 0.025061 0 
0 3589986 FALSE 15.2725 20 0 0.239839 0.025111 0 
0 739831 FALSE 15.3563 60 0 0.240455 0.025176 0 
0 1920532 FALSE 2045337 1 0097496 0 2.26E-05 0.025186 0 
0 1550920 FALSE 15.23979 40 0 0.242746 0.025415 0 
0 2763796 FALSE 15.2861 60 0 0.242895 0.025431 0 


10 低热 度 推 文 信息 截图 示例 
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图 11 阅 值 选择 


在 数据 预 处 理 的 基础 上 ,本 算法 的 时 间 复 杂 度 为 0 
(3 也 属于 线性 阶 ,然而 涉及 到 自然 语言 处 理 等 机 器 学 
习 锋 法 的 时 间 复杂 度 均 以 0(N2) 为 起 点 。 因 此 ,本 文 
作 狼 网 络 与 情 研 究 数 据 获取 阶段 的 初步 过 滤 算 法 , 具 

显 的 速度 优势 。 本 文 实 验 中 ,在 63 816 条 数据 中 ， 
共 汉 滤 掉 50 865 条 数据 ,收集 到 12 951 条 有 网 络 与 情 
研究 价值 的 数据 ,在 准确 率 95% 的 基础 上 总 共 过 滤 了 
79% 的 无 用 数据 ,性 能 良好 。 


S 总 结 与 展望 


本 文通 过 层次 分 析 模 型 与 热度 计算 模型 构建 了 完 
善 的 热度 测度 模型 ,通过 对 推 文 作者 、 推 文 内 容 与 扒 
文 附加 信息 的 数据 计算 与 分 析 ,得 出 推 文 的 热度 ,在 
热度 计算 的 基础 上 ,通过 关键 词 筛选 与 敏感 词 过 滤 ， 
提高 了 热度 测度 的 准确 性 。 通 过 热度 的 计算 ,为 后 
续 网 络 与 情 并 发 获取 中 信息 的 过 滤 提 供 了 技术 与 数 
据 支 持 。 本 文 是 静态 的 热度 测度 计算 模型 ,可 以 在 
不 同时 间 市 点 重复 本 文 算法 ,以 对 动态 变化 的 推 文 
热度 进行 研究 。 

本 文 仅 对 微 博 中 的 推 文 进行 了 抓 取 与 分 析 , 有 待 
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对 数据 进行 补充 ,同时 推 文 传播 加 权 速 率 中 权重 设置 
的 相关 研究 也 有 待 完 善 。 在 本 文 的 基础 上 ,今后 可 以 
扩展 到 多 媒体 网 络 奥 情 信息 中 图 片 视频 音频 信息 的 
热度 测度 计算 。 
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The Construction of Heat Assessment Model for Tweets of Network Public Opinion 
Huang Wei Liu Yi Xu Yejing Sun Yue 
School of Management, Jilin University, Changchun 130022 

Abstract: [Purpose/significance | Data Collection is the first step of the study of Network Public Opinion. The 
construction of Heat Assessment Model for Tweets of Network Public Opinion will rapidly screen useful data over dramatic 
number of data. [ Method/process | This paper cites the definition of Average Self-Information, applies Analytic Hierar- 
chy Process (AHP) and Haker News Ranking Algorithm to construct a Heat Assessment Model for Tweets of Network Pub- 
lic Opinion. [ Result/conclusion | Through the calculation of data collected from Weibo, this paper obtains the threshold 
of this data set. Then this paper tests the accuracy of the model, which proves this model could achieve the heat calcula- 
tion precisely. 


Keywords: network public opinion heat of Tweets AHP 


情报 学 与 情报 工作 发 展 论坛 (2019) 征稿 通知 (第 一 轮 ) 


懈 报 学 与 情报 工作 发 展 论坛 自 成 立 以 来 ,已 成 功 举办 两 届 , 有 效 推动 了 情报 学 与 情报 工作 的 科学 发 展 , 并 取得 了 良好 反响 与 广泛 肯定 。 大 
智能 正在 重 塑 情报 学 与 情报 工作 的 内 核 与 应 用 场景, 为 延续 《南京 共识 ) 精 神 ,把 握 转型 与 变革 机 遇 , 汇 集 并 目 显 情报 领域 的 最 新 
进展 别人 动 我 国情 报 学 人 与 情报 工作 者 的 交流 ,创新 情报 学 与 情报 工作 的 理论 与 实践 ,搭建 年 度 性 的 全 国情 报 学 学 术 会 议 平台 ,形成 学 术 传统 ， 
“新 时 代 新 使 命 新 作为 一 -情报 学 与 情报 工作 发 展 论坛 (2019) "将 于 2019 年 11 月 8 日 -10 日 在 武汉 华中 师范 大 学 举办 。 本 次 论坛 将 秉承 
| 与 情报 工作 发 展 论坛 优良 传统 ,邀请 地 方 . 军 队 、 公 安 等 高 校 和 军队 、 地 方 情报 所 的 专家 学 者 , 师 生 代 表 、 从 业 人 员 共同 参 会 ,围绕 新 时 代 
情 扩 学 与 情报 工作 创新 与 发 展 展开 深入 的 交流 和 碰撞 ,通过 不 同 领域 学 者 专家 的 探讨 与 互动 ,推动 情报 学 与 情报 工作 的 纵深 发 展 。 热 忱 欢迎 
情报 学 与 情报 工作 领域 的 师 生 学者. 专家. 从业 人 员 蹦 跃 投稿 并 参 会 ! 


[| 本 


三 、 主 办 单位 稿件 请 发 送 至 论坛 专用 邮箱 :qbxqbgz2019@ 163. com 
中 国 科学 技术 情报 学 会 (三 ) 稿件 要 求 
社会 科学 情报 学 会 投稿 论文 须 是 未 公开 发 表 的 原创 性 研究 成 果 , 篇 幅 字 数控 制 在 
(四 男 访 科学 技术 信息 学 会 8 000 字 左右 。 投 稿 论文 格式 请 参照 (图 书 情报 工作 ) 期 刊 的 “投稿 须 
和 华中 师范 大 学 信息 管理 学 院 知 及 格式 规范 ”。 

、 会 议 日 其 (四 ) 录用 .评奖 与 发 表 


m 


(C2019 年 11 月 8 日 -10 日 论坛 主办 方 将 邀请 专家 对 投稿 论文 进行 严格 评审 ,一 经 录用 酌 
三 、 会 议 地 点 付 稿 酬 ,并 为 受 邀 作 论 文 交 流 的 作者 提供 与 会 期 间 的 食 宿 (每 篇 录用 
武汉 华中 师范 大 学 论文 限 资助 一 位 ) ;根据 征稿 数量 和 质量 从 中 评选 出 优秀 论文 一 二、 
四 、 征稿 主题 :新 时 代 情 报 学 与 情报 工作 创新 与 发 展 三 等 奖 ,届时 颁发 荣誉 证 书 与 奖励 ;优秀 论文 将 推荐 给 《图 书 情报 
本 届 论 坛 征稿 主题 包含 但 不 限于 以 下 主题 , 供 投稿 作者 选 题 参 考 。 ” 作 》《 图 书 情报 知识 》《 情 报 学 报 》《 情报 科 学 》《 人 情报 理论 与 实 
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(2) 情报 学 方法 创新 与 应 用 。 《知识 管理 论坛 》《 农 业 图 书 情报 》( 排名 不 分 先后 ) 等 期 刊 发 表 。 
(3) 情报 技术 创新 与 实践 。 六 、 联 系 方式 
(4) 信息 行为 与 情报 服务 。 华中 师范 大 学 信息 管理 学 院 李 玉 海 
(5) 安全 情报 。 p 箱 :yhli@ mail. ccnu. edu. cn 
(6) 情报 学 学 科 建 设 。 电话 :027 - 67868865 
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